@朱述承等:《基于语料库的我国职业性别无意识偏见共时历时研究》
摘要
- 研究背景:性别偏见是社会学热点,机器学习算法从数据中学到偏见引发关注。但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。
- 方法:基于标记理论,利用BCC和DCC语料库,从共时和历时层面分析63个职业的性别无意识偏见。
- 发现:
- 问卷调查与BCC语料库职业性别偏见度呈显著正相关。
- 从口语至书面语,职业对女性偏见逐渐升高;不同地区存在差异。
- 历时分析显示,2005-2018年职业性别偏见总体弱化。
0 引言
- 偏见定义:针对特定群体的倾向性态度,分为有意识与无意识偏见。
- 性别偏见(gender bias) :对于一种性别较其他性别的倾向或歧视。
- 职业中的性别偏见:“职业性别隔离”(occupational gender segregation), 指男性群体和女性群体在不同职业中的分布不均衡,收入、职位等不公平的现象
- 语言中的职业性别偏见:人们对从事某一特定职业的人群在性别上存在的无意识的、不明显的、潜在的不公平语言态度。
- 研究意义:语言作为社会镜像,反映并塑造性别偏见;语料库研究为新趋势。
- 研究问题
- (1)不同性别、年龄的人群对特定职业的性别倾向是否存在差异?且语言能否反映出人们对于职业性别倾向的认知?
- (2)在共时层面,不同语体、不同地区的语言在职业性别偏见上是否存在差异?
- (3)在历时层面,语言中职业性别偏见的程度经历了怎样的变化过程?
1 相关工作
1.1 社会学等领域的研究
- 国内:职业性别隔离(就业、收入不平等)普遍存在。经济学测量“职业性别隔离”指数。
- 国外:职业性别刻板印象(如工程师男性化、教师女性化)显著。
1.2 语言学领域研究
- 社会语言学:男女语言差异显著,可通过词汇语法判断作者性别。
- 标记理论:印欧语系中形式/语义标记体现性别偏见。
- 自然语言处理:机器学习可能继承训练数据中的性别偏见。
2 研究设计
2.1 研究数据
- 共时数据:
- BCC语料库:文学、报刊、多领域、微博、科技模块。
- DCC语料库:2018年全国31省报纸(如《北京日报》《南方周末》)。
- 历时数据:DCC语料库 2005-2018年6份报纸。
2.2 研究对象
- 63个职业:按霍兰德职业兴趣理论分类:
- 艺术型(如歌手、画家)
- 社会型(如教师、警察)
- 经管型(如CEO、商人)
- 事务型(如会计、邮递员)
- 研究型(如科学家、医生)
- 技能型(如司机、厨师)
2.3 研究方法
2.3.1 问卷调查
- 量表:李克特五分量表(1=极适合女性,5=极适合男性)。
- 参与者:244份有效问卷(性别、年龄分层)。
2.3.2 职业性别偏见度计算
- 标记理论
- 统计语料库中不同语料中的性别职业词词频。在这里,性别职业词指的是“男/女+63种职业”,如“男医生”“女机长”等。
- 根据标记理论,若一个职业中,出现“女+职业”的词频远高于“男+职业”的词频,则说明“女+职业”具有很强的标记特征,即为了强调女性特质(可能是突出女性取得该职业的不易或很少有女性能担任该职业),我们则认为该职业对女性有一定的偏见。
- 公式:
:女性职业词频(如“女医生”)。 :男性职业词频(如“男医生”)。
- 意义:
值越大,对女性偏见越强(5为最大偏见)。
3 调查与实验结果
3.1 问卷调查
- 总体结果:职业性别倾向均值3.15(中性),事务型(如会计)倾向女性,技能型(如司机)倾向男性。
- 群体差异:
- 性别
- 男性群体和女性群体在职业性别倾向的认知上并没有显著性差异。
- 男性群体和女性群体只有在艺术家、漫画家、画家和作家这四个艺术型的职业中有观念上的差异
- 年龄:
- 两个年龄段的群体在职业性别倾向的认知上也没有显著性差异(p值大于0.05)。
- 30岁以下群体和30岁以上群体在认知差异上最大的职业是事务型的职业出纳和经管型的职业采购员
- 性别
3.2 职业性别偏见度
首先分别在BCC语料库中的报刊、文学、科技、多领域和微博模块中检索性别职业词,并统计词频,然后计算出不同职业在不同模块中的职业性别偏见度。为了尽可能避免偶然性因素的影响,在统计过程中,删除了每一个模块中“女+职业”的频次小于等于5的职业。
然后根据表1所选报纸, 利用程序抽选并统计出2018年不同省级行政单位的性别职业词词频, 将63种性别职业词词频按照女性和男性分别汇总, 并以此计算出每个省级行政单位2018年语言中的职业性别偏见度。
最后统计出2005至2018年DCC语料库中6份报纸语料中每年的男性性别职业总词频和女性性别职业总词频,并计算出每一年语言的职业性别偏见度
接下来, 将每年每种职业的性别职业词词频统计出来, 删去女性性别职业词词频在5以下的职业, 计算每种职业每年的职业性别偏见度。绘制出每种职业的职业性别偏见度的历时变化图。
3.3 问卷调查与职业性别偏见度的相关性
4 共时和历时分析
4.1 共时分析
- 语体差异:
- 微博(口语)偏见度最低,报刊(书面语)最高。
- 职业差异
- 艺术型的职业在语言中对女性的性别偏见较小,然后是社会型职业和技能型职业。对女性的性别偏见较小的职业没有事务型的职业。
- 带有“家”或“师”后缀的艺术型职业普遍在语言中表现出对女性具有强的偏见性。
- 地区差异:对女性的职业性别偏见较小的区域集中在我国的中北部地区,西北、西南地区是我国对女性职业性别偏见较强的区域。
4.2 历时分析
- 整体趋势:职业中对女性的性别偏见呈现下降趋势,虽然仍有反复,但自2014年起,指标较前9年维持着相对低的水平。
- 总体来看,护士、模特、运动员、歌手、医生在历年中可视为在语言中对女性性别偏见较小的职业。
5 结语
- 结论:
- 语言反映社会认知,职业性别偏见随平权运动减弱。
- 语料库方法有效量化偏见,为社会语言学提供新视角。
- 展望:需结合更多指标(如新闻事件影响),预测未来趋势。